RNA 3. SCI 文章中基于T CGA 差异表达基因之 DESeq2

您所在的位置:网站首页 deseq2 计算fpkm RNA 3. SCI 文章中基于T CGA 差异表达基因之 DESeq2

RNA 3. SCI 文章中基于T CGA 差异表达基因之 DESeq2

2023-03-22 14:27| 来源: 网络整理| 查看: 265

前言

上期我们介绍了基于 limma 来做差异表达基因,那么这期来讲一下 DESeq2,那么这两款软件有什么区别吗?区别主要在于一个是计算芯片探针给出来的结果,而 DESeq2 是基于NGS 测序结果中 Read counts 来计算差异表达,根据输入数据的不同,我们对比一下做法。

在比较高通量测序分析中,一项基本任务是分析计数数据,如 RNA-seq 中每个基因的 Read count,以获得跨实验条件的系统性变化的证据。离散性,大动态范围和异常值的存在需要一个合适的统计方法。DESeq2 是一种计数数据的差分分析方法,使用离散度和折叠变化的收缩估计来提高估计的稳定性和可解释性。这使得更多的定量分析集中在强度上,而不仅仅是差异表达的存在。下面我们就根据这篇文章的数据模式进行差异分析。

a4b756440be28579746057f23c5bb5e1.png

01. 软件包安装

安装 DESeq2 软件包,这个包需要通过 BiocManager 来安装,所以首先检测是否安装 BiocManager ,我之前安装过 DESeq2 ,所以不需要重复安装,如果使用 RStudio 安装不成功,可以通过 R 软件安装,运行如下:

if (!require("BiocManager", quietly = TRUE)) install.packages("BiocManager") if (!require("DESeq2", quietly = TRUE)) BiocManager::install("DESeq2") if (!requireNamespace("TCGAbiolinks", quietly=TRUE)) BiocManager::install("TCGAbiolinks") if (!requireNamespace("EDASeq", quietly = TRUE)) BiocManager::install("EDASeq") if (!requireNamespace("SummarizedExperiment", quietly = TRUE)) BiocManager::install("SummarizedExperiment") if (!requireNamespace("EnhancedVolcano", quietly = TRUE)) BiocManager::install("EnhancedVolcano") if (!requireNamespace("limma", quietly = TRUE)) BiocManager::install("limma") library(DESeq2) library(TCGAbiolinks) library(EDASeq) library(SummarizedExperiment) library(EnhancedVolcano) library(limma) 02. TCGA 数据读取

这次我们选择 TCGA 数据的RNA-SEQ的 Reads count 数据,一般后缀为 HTSeq-counts.txt。

我们看通过 TCGAbiolinks 这个软件包都可以获得哪些数据库的数据集,TCGA 全部数据集,还是非常全面的,如下:

getGDCprojects()$project_id ## [1] "TCGA-BRCA" "GENIE-MSK" "GENIE-VICC" "GENIE-UHN" ## [5] "CPTAC-2" "CMI-ASC" "BEATAML1.0-COHORT" "CGCI-BLGSP" ## [9] "BEATAML1.0-CRENOLANIB" "CMI-MPC" "CMI-MBC" "GENIE-GRCC" ## [13] "GENIE-MDA" "GENIE-JHU" "GENIE-NKI" "FM-AD" ## [17] "VAREPOP-APOLLO" "WCDT-MCRPC" "GENIE-DFCI" "TARGET-ALL-P3" ## [21] "TARGET-ALL-P2" "OHSU-CNL" "TARGET-ALL-P1" "MMRF-COMMPASS" ## [25] "TARGET-CCSK" "ORGANOID-PANCREATIC" "NCICCR-DLBCL" "TARGET-NBL" ## [29] "TARGET-OS" "TARGET-RT" "TARGET-WT" "TCGA-LAML" ## [33] "CGCI-HTMCP-CC" "TARGET-AML" "HCMI-CMDC" "TCGA-DLBC" ## [37] "TCGA-CHOL" "CTSP-DLBCL1" "TRIO-CRU" "TCGA-MESO" ## [41] "TCGA-ACC" "TCGA-UCS" "TCGA-KICH" "TCGA-PCPG" ## [45] "TCGA-ESCA" "TCGA-THYM" "TCGA-TGCT" "TCGA-UVM" ## [49] "TCGA-CESC" "TCGA-BLCA" "TCGA-PAAD" "TCGA-LIHC" ## [53] "TCGA-SKCM" "TCGA-UCEC" "TCGA-PRAD" "REBC-THYR" ## [57] "TCGA-THCA" "TCGA-OV" "TCGA-LGG" "TCGA-SARC" ## [61] "CPTAC-3" "TCGA-COAD" "TCGA-READ" "TCGA-KIRP" ## [65] "TCGA-GBM" "TCGA-STAD" "TCGA-LUAD" "TCGA-KIRC" ## [69] "TCGA-LUSC" "TCGA-HNSC"

使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型,如查询"TCGA-COAD",有8种数据类型,case_count为病人数,file_count为对应的文件数。要下载表达谱,可以设置data.category="Transcriptome Profiling",如下:

TCGAbiolinks:::getProjectSummary("TCGA-COAD") ## $file_count ## [1] 15701 ## ## $data_categories ## file_count case_count data_category ## 1 2971 460 Copy Number Variation ## 2 531 461 Clinical ## 3 2835 461 Biospecimen ## 4 2493 459 Transcriptome Profiling ## 5 3952 433 Simple Nucleotide Variation ## 6 363 360 Proteome Profiling ## 7 556 458 DNA Methylation ## 8 2000 460 Sequencing Reads ## ## $case_count ## [1] 461 ## ## $file_size ## [1] 2.747227e+13

现在我们选择一个结肠癌的表达数据,比较癌和癌旁组织之间的表达差异基因,下载 TCGA-COAD,下载方式可以选择直接下载:{.uri} 下载 HTSeq-counts.txt 和临床数据,也可以通过 TCGAbiolinks 软件包下载。

# 请求数据。 query


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3